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FAIR 数据 评估 模型 与 工具 研究 
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摘 要 : [目的 /意义 ] 对 比分 析 FAIR 数据 评估 模型 与 工具 ,为 数据 建设 和 数据 管理 过 程 中 利益 相关 者 评估 FAIR 数据 的 
遵循 度 提 供 参 考 。 [ 方法 “过程 ] 通过 文献 综述 及 模型 文本 的 研究 ,从 评估 指标 和 评估 方法 两 方面 介绍 国际 上 7 
个 评估 FAIR 数据 遵循 度 的 指标 模型 与 工具 ,采用 比较 分 析 法 从 评估 方法 的 类 型 .评估 方法 的 自动 化 程度 .评估 方 
法 的 可 操作 性 、 指 标 数 量 与 分 布 . 元 数据 指标 设置 、 指 标清 晰 度 等 6 个 方面 对 比分 析 各 模型 与 工具 。[ 结果 /结论 ] 
基于 对 比 与 评析 结果 ,为 选择 与 应 用 FAIR 数据 评估 模型 与 工具 提出 “FAIRsFAIR 数据 对 象 评 估 + FAIR 数据 成 熟 


度 模 型 ”的 方案 。 


关键 词 : FAIR 评估 FAIR 遵循 度 FAIR 成 熟 度 FAIR 指标 数据 FAIR 化 FAIR 原则 
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G3 可 发 现 (Findable) .可 访问 (Accessible) 可 互 操作 
(Interoperable ) .可 重用 (Reusable ) ,简称 FAIR 原则 , 
JETI FORCE 11 组 织 于 2016 ^E iE SCR Ai E I, Ert 
BEENIE AEMT REIHE. 

COFAIR 为 数据 建设 和 数据 管理 过 程 中 数据 应 达到 
的 鹿 优 状态 (最 佳 发 现 和 重用 ) 提供 了 一 个 通用 的 原 


指标 模型 与 工具 ,为 数据 创建 者 (如 研究 人 员 等 ) 、 数 
据 管理 者 ( 如 数据 中 心 、 图 书馆 等 ) 数据 服务 提供 者 
(如 数据 存储 库 等 ) .科研 资助 机 构 等 评估 数据 符合 
FAIR 的 程度 .了 解数 据 的 FAIR 状态 提供 参考 ,进而 推 
动 数据 的 FAIR 化 水 平 。 


1 国内 外 研究 现状 


则 村 指导 。 人 们 在 数据 建设 和 数据 管理 过 程 中 ,需要 
1 明了 解数 据 符合 FAIR 的 程度 (或 FAIR 遵循 度 、 
FAI 实施 程度 ) 以 明确 需要 进一步 改进 的 问题 。 因 
此 > 建立 明确 的 .有 识别 力 的 、 可 测量 的 并 且 通 用 性 强 
的 邑 估 指标 成 为 迫切 需要 。 近 年 来 ,国际 上 已 经 有 部 
分 组 织 开 始 推 出 相应 工具 与 方法 评估 数据 符合 FAIR 
的 程度 ”。 本 文 主要 介绍 FAIR 指标 小 组 (The FAIR 
Metrics Group) 荷兰 数据 存档 与 网 络 服务 (The Dutch 
Data Archiving and Networked Services, DANS) 、 澳 大 利 
严 研 究 数据 共享 组 织 (Australian Research Data Com- 
mons, ARDC ) 澳大利亚 联邦 科学 与 工业 研究 组 织 
( Commonwealth Scientific and Industrial Research Organi- 
sation, CSIRO) WFA AGE (Research Data Alliance, 
RDA) ,FAIRsFAIR( Fostering FAIR data practices in Eu- 
rope) .欧洲 开放 科学 云 (The European. Open Science 
Cloud, EOSC) 等 组 织 提出 的 7 个 评估 FAIR 遵循 度 的 


IE 


随 着 FAIR 原则 的 推出 , 越 来 越 多 的 机 构 开 始 接 受 
并 支持 该 原则 。 国 外 研究 主要 集中 于 以 下 方面 :中 介 
绍 与 解读 fAIR 原则 ,如 GO FAIR 网 站 上 发 布 的 “FAIR 
原则 阐释 ”中 , M. D. Wilkinson 等 对 FAIR 原则 的 解 
T£" A. Jacobsen 等 "逐条 对 FAIR 原则 进行 解读 并 列 
出 其 实施 注意 事项 。@ 研 究 如 何 实施 FAIR 原则 ,如 
A. Jacobsen 等 中 提出 了 数字 资源 FAIR 化 的 通用 流 
程 ,GoFAIR 提出 了 某 个 领域 的 数据 和 服务 FAIR 化 的 
全 套 方法 .流程 和 工具 '" ,还 有 一 些 团体 机 构 发 布 了 指 
导 实 施 FAIR 的 建议 ,如 欧盟 委员 会 发 布 “将 FAIR E 
为 现实 ”的 报告 ,为 不 同 的 利益 相关 方 提出 了 27 项 详 
细 的 建议 和 行动 ” ,欧洲 开放 科学 云 FAIR 工作 小 组 提 
出 了 推进 FAIR 实施 的 6 项 建议 ”。@ 研 究 应 用 FAIR 
原则 评估 数据 存储 库 ,如 M. Hahnel fil V. Dan? 调查 了 
10 个 数据 存储 库 遵 循 FAIR 原则 的 情况 ,A. Dunning 
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等 中 分 析 了 40 多 个 数据 存储 库 遵循 FAIR 原则 的 情 
况 。 不 过 这 些 分 析 并 未 使 用 某 个 正式 的 评估 模型 或 依 
据 某 个 评估 标准 ,而 是 由 作者 基于 数据 存储 库 的 帮助 
页 面 .元 数据 记录 等 相关 资料 去 评估 其 是 否 符合 FAIR 
原则 ,评估 过 程 较为 主观 。 因 此 ,建立 明确 的 .有 识别 
力 的 .可 测量 的 并 且 通 用 性 强 的 评估 指标 评估 数据 实 
施 FAIR 的 程度 成 为 迫切 需要 。 为 此 ,FAIR 指标 小 组 、 
荷兰 数据 存档 与 网 络 服 务 .澳大利亚 研究 数据 共享 组 
织 澳大利亚 联邦 科学 与 工业 研究 组 织 、 研 究 数据 联 
盟 .FAIRsFAIR 、 欧 洲 开放 科学 云 等 组 织 提出 了 各 自 的 
评估 FAIR 实施 程度 的 模型 或 工具 。 
国内 研究 FAIR 数据 评估 的 文献 较 少 ,研究 主要 集 
中 于 对 该 原则 的 介绍 ,如 2019 年 段 青玉 和 王晓光 5 
介绍 FAIR 原则 ,并 调研 北京 大 学 开放 研究 数据 平台 、 
DANS .Huma-Num 人 文 社 科 领 域 三 大 代表 性 数据 出 版 
PAN FAIR 原则 实践 措施 。 杨 哺 林 等 研究 FAIR 
准 风 在 生物 医学 数据 标准 中 的 应 用 。 之 后 ， 文明 
宋佳 等 5 对 该 原则 进行 了 系统 全 面 的 介绍 。 此 
外 = 壬 内 由 中 国 科学 院 文献 情报 中 心 与 麻 省 理工 学 院 
"ORE MIT Press ) 联合 主办 的 英文 期 刊 Data Intelli- 
nés TE 2020 年 1 -2 期 刊登 了 关于 FAIR 的 专题 共 29 
篇 党 文 , 涉 及 FAIR 的 概念 .实施 .案例 分 析 等 各 个 方 
it, 9o A I] Ae TL T fit FAIR 提供 了 便利 。 
会 通过 分 析 国 内 外 研究 发 现 ,如 何 评估 FAIR 的 实施 
程 插 或 了 解数 据 符合 FAIR 的 程度 是 FAIR 实施 与 应 
Rit ge vp 个 非常 重要 的 方面 , 正 受到 国际 上 一 些 组 
织 的 重视 ， 并 提出 了 一 些 评估 框架 与 方法 。 本 文 将 介 
绍 国 际 上 已 有 的 7 个 主要 评估 FAIR 实施 程度 的 指标 
模型 与 工具 ,为 数据 建设 和 数据 管理 过 程 中 利益 相关 
者 提供 参考 。 

因 下 文 介绍 的 7 个 评估 工具 基本 依据 FAIR 原则 
设置 其 评估 指标 ,关于 FAIR 原则 的 15 个 指标 可 参考 
邢 文 明 等 的 文章 ,在 此 不 再 更 述 。 


2 ”国际 主要 的 FAIR 数据 评估 模型 与 工具 


2.1 以 网 络 清单 /表单 /列表 或 问卷 形式 的 自 评估 工具 
以 网 络 清 单 / 表 单 / 列 表 或 问卷 形式 的 自 评 估 工 具 
主要 有 FAIR 遵循 度 评估 指标 体系 、FAIRdat FAIR 数 
据 评 估 工 具 (FAIR data assessment Eus 5 RUBUS TET 
TĦ (5-star Data Rating Tool ) 这 4 个 代表 性 工具 。 
FAIR 遵循 度 评估 指标 体系 是 由 FAIR. 原则 的 提出 者 
M. D. Wilkinson 等 自主 成 立 的 FAIR 指标 小 组 于 2018 
年 提出 的 "” 。FAIRdat 是 由 荷兰 数据 存档 与 网 络 服务 


s 2017 年 夏 发 布 的 评估 数据 集 FAIR 遵循 度 的 工 
o FAIR 数据 评估 工具 是 由 澳大利亚 研究 数据 共 
ES "m 澳大利亚 国家 电子 化 研究 合作 工具 与 资源 项 
目 (The National eResearch Collaboration Tools and Re- 
sources Project, NeCTAR Project) 和 澳大利亚 研究 数据 
服务 (Research Data Services, RDS) 合作 开发 的 ,主要 
是 面向 数据 馆 员 及 IT. 人 员 ,也 适用 于 软件 工程 师 及 研 


ARA 。5 星 数据 评估 工具 是 澳大利亚 联邦 科学 与 


工业 研究 组 织 基 于 数据 评级 系统 开发 的 。 

除了 5 星 数据 评估 工具 外 ,其 余 3 个 都 是 基于 
FAIR 原则 设置 若干 评估 指标 ( 见 表 1) ;. FAIR 指标 小 
组 的 FAIR 遵循 度 评估 指标 体系 共有 14 个 指标 ,基本 
Ej FAIR 15 条 原则 对 应 。FAIRdat 也 是 基于 FAIR 原 
则 ,在 可 发 现 . 可 访问 、 可 互 操作 3 个 维度 设计 具体 测 
量 指标 ,在 可 重用 维度 未 设置 指标 ,其 评分 为 前 3 个 维 
度 打 分 的 平均 值 。FAIR 数据 评估 工具 同样 基于 FAIR 
原则 的 4 个 维度 分 别 设置 评估 指标 。5 星 数据 评估 工 
具 共 包括 14 个 指标 ,其 指标 并 没有 完全 根据 FAIR 原 
则 来 制定 , 仅 部 分 指标 可 对 应 至 FAIR 原则 ,部 分 指标 
超越 了 FAIR 原则 ,如 监护 .更 新 与 维护 、 使 用 情况 等 
指标 。 

R1 以 网 络 清单 /表单 /列表 或 问卷 形式 的 
自 评估 工具 指标 


对 应 的 
FAIR 原则 


FAIR 遵循 度 评估 指标 标识 符 的 唯一 性 可 发 现 
标识 符 的 永久 性 
元 数据 的 机 器 可 读 性 
元 数据 中 的 资源 标识 符 
数据 在 可 搜索 引擎 中 建立 索引 
访问 协议 可 访问 
访问 授权 
元 数据 寿命 
使 用 知识 表示 语言 
使 用 FAIR 词 表 
合格 引 
可 访问 的 数据 使 用 协议 可 重 
溯源 规范 
符合 领域 标准 

该 数据 集 是 否 有 永久 标识 符 ? 可 发 现 

该 数据 集 是 否 有 让 富 的 元 数据 ? 

是 否 有 更 多 扩展 的 元 数据 或 额外 文档 ? 


评估 工具 


评估 指标 


可 互 操作 


FAIRdat 


玄 数据 集 是 否 需 要 用 户 许 可 ? 可 访问 
即使 数据 不 再 可 用 ,是 否 可 以 访问 其 元 数据 ? 

该 数据 集 是 否 包含 多 个 文档 ? 可 互 操作 
数据 文档 是 否 是 专 有 的 格式 ? 
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( 续 表 1) 
" XE 
评估 工具 评估 指标 P eus 
该 格式 是 否 符合 存档 所 入 好 的 格式 ? 
是 否 使 用 标准 的 词 表 、 编码 或 语言 H? 
数据 是 否 以 关联 数据 ( 如 RDF 格式 ) d 
示 , 以 与 其 他 数据 关联 ? 
无 可 重 
PAIR 数据 评估 。 数据 集 标识 符 类 型 TEN 


工具 元 数据 包含 数据 集 标识 符 
元 数据 格式 ( 即 如 何 使 用 元 数据 描述 数据 ) 
元 数据 记录 的 存储 库 类 型 
数据 开放 程度 可 访问 
在 线 获取 数据 方式 (协议 工具) 
元 数据 记录 的 可 用 性 


数据 文件 格式 可 互 操作 
定义 数据 元 素 的 词汇 表 / 本 体 / 标 记 模 式 
的 类 型 
元 数据 外 链接 方式 (关联 至 其 他 数据 并 
指示 关系 ) 
= 数据 许可 声明 的 格式 可 重用 
SEPIRA Ge 
quem " m 
监护 A2 
更 新 与 维护 RI.I 
许可 F1 
引 R1, F2, F3 
描述 R1, F2, F3 
可 发 现 n 
可 下 载 
可 使 D, RI.3 
可 理解 I" 
链接 B 
可 评价 R1.2 


z| 


[信任 


注 : 表 1 中 “5 星 数据 评估 工具 "的 了 FAIR 分 别 对 应 FAIR 原 
则 的 可 发 现 、 可 访问 \、 可 互 操作 、 可 重用 ,各 细 分 指标 具体 参见 FAIR 
原 


在 评估 方法 上 ,以 网 络 清单 /表单 /列表 或 问卷 形 
式 的 自 评估 工具 在 每 个 指标 下 设置 若干 个 问题 ,各 个 
问题 设置 若干 结果 选项 ,通过 回答 问题 产生 评估 结果 。 
评估 形式 以 网 络 清单 /表单 /列表 或 问卷 形式 开展 ,如 
FAIR 指标 小 组 的 FAIR 遵循 度 评估 指标 体系 采取 问卷 
形式 ,对 每 一 个 指标 设置 一 个 问题 , 共 15 个 问题 (22 
项 ) ,请 评估 者 回答 相应 问题 完成 对 某 资源 FAIR 遵循 
度 的 评估 '"” 。FAIRdat 也 是 对 每 一 个 指标 设置 一 个 问 
题 , 共 10 个 ,采取 问卷 形式 请 评估 者 回答 相应 问题 完 
成 对 某 数据 集 FAIR 遵循 度 的 评估 "” 。FAIR 数据 评 


I 


估 工 具 设置 11 个 问题 ,以 问卷 的 形式 开展 评估 T 。 

星 数据 评估 工具 基于 14 个 指标 设置 了 14 
问卷 形式 回答 每 个 指标 的 问题 维度 ” 。 评 估 结 果 有 
的 以 一 个 总 结果 呈现 ,如 FAIR 数据 评估 工具 的 问题 选 
项 由 1 至 N 编号 表示 由 优 至 劣 ,根据 所 选 结果 汇总 最 
后 给 出 一 个 绿色 条 形 图 表示 评估 结果 。 还 有 的 呈现 
FAIR4 个 维度 的 星 级 结果 (由 1 -5 MERR), 如 
FAIRdat 每 个 问题 都 只 设置 简单 的 “是 ”或 “ 否 ” 选 项 ， 
一 个 维度 指标 下 的 所 有 问题 回答 完 后 ,如 “可 发 现 ” 维 
度 ,会 给 出 该 维度 指标 的 星 级 。5 星 数 据 评估 工具 在 
所 有 问题 完成 后 ,会 给 出 FAIR 4 个 维度 的 星 级 (由 1 - 
5 颗 星 表示 ) 。 

2.2 基于 成 熟 度 理论 的 评估 工具 

基于 成 熟 度 理论 的 评估 工具 以 研究 数据 联盟 的 
FAIR 数据 成 熟 度 模型 (FAIR Data Maturity Model) 为 代 
表 , 并 在 此 基础 上 衍生 出 FAIRsFAIR 数据 对 象 评估 指 
标 、 欧 洲 开放 科学 云 FAIR. 评估 指标 。 
研究 数据 联盟 于 2019 年 1 H Woz FAIR 数据 成 熟 
度 模 型 工作 小 组 (FAIR Data Maturity Model Working 
Group) ,专门 负责 研究 FAIR 数据 的 评估 。 该 小 组 历时 
一 年 多 ,于 2020 年 4 月 正式 发 布 了 FAIR 数据 成 熟 度 
模型 规范 与 指南 建议 )” 。 该 文档 基于 成 熟 度 模 型 提 
出 了 一 个 对 FAIR 遵循 度 的 评估 框架 一 一 FAIR 数据 成 
pad ,模型 包括 评估 指标 、 指 标 重要 程度 与 评估 方 

o FAIR 数据 成 熟 度 模型 的 指标 同样 基于 FAIR 原 
B ,其 设计 了 41 个 指标 (可 发 现 7 个 ,可 访问 12 个 ,可 
互 操 作 12 个 ,可 重用 10 个 )( 见 表 2)。 这 些 指标 基于 
FAIR 原则 的 指标 并 按照 数据 和 元 数据 进行 了 划分 ,如 
“F1 数据 (元 数据 ) 被 分 配 全 球 唯一 旦 持久 的 标识 符 ” 
细 分 成 了 RDA-F1-01M 、RDA-F1-01D 、RDA-F1-02M , 
RDA-F1-02D 3x 4 个 指标 。 

此 外 ,FAIR 数据 成 熟 度 模型 还 对 指标 的 重要 程度 
进行 了 区 分 。 指 标 重 要 程度 是 基于 数据 提供 者 或 数据 
出 版 商 等 对 指标 在 FAIR 实现 中 的 重要 性 的 认 知 ,划分 
di 3 个 重要 性 等 级 :非常 重要 重要、 有 用 。 其 中 ,“ 非 

重要 "表明 该 指标 在 大 多 数 情 况 下 对 于 实现 FAIR 
I Roa o E 

境 下 不 是 那么 很 重要 ,但 能 很 大 程度 上 增强 FAIR 化 。 
“有 用 ”是 指 该 指标 能 满足 则 更 好 ,但 不 是 必要 的 。 在 
这 41 个 指标 中 ,“ 非 常 重要 ”的 指标 有 20 个 ,“ 重 要 ” 
Hb 14 个 ,“ 有 用 ”指标 7 个 。 

FAIRsFAIR 数据 对 象 评估 指标 (FAIRsFAIR Data 
Object Assessment Metrics) 是 FAIRsFAIR 基于 RDA 的 
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表 2 FAIR 数据 成 熟 度 模型 的 指标 体系 


对 应 的 FAIR 原则 评估 指标 指标 标识 
FI 元 数据 被 分 配 永久 标识 符 RDA-F1-01M 
FI 数据 被 分 配 永久 标识 符 RDA-F1-01D 
FI 元 数据 被 分 配 全 球 唯一 标识 符 RDA-F1-02M 
FI 数据 被 分 配 全 球 唯一 标识 符 RDA-F1-02D 
F2 具有 丰富 的 元 数据 以 促进 数据 (元 数据 ) 的 发 现 RDA-F2-01M 
F3 元 数据 包含 所 描述 的 数据 的 标识 符 RDA-F3-01M 
F4 元 数据 在 搜索 应 用 服务 中 注册 或 索引 RDA-F4-01M 
Al 元 数据 包含 使 用 户 能 够 检索 到 数据 的 相关 信息 RDA-AI-01M 
Al 元 数据 可 人 工 检索 (如 人 工 干预 ) RDA-A1-02M 
Al 数据 可 人 工 检索 (如 人 工 干预 ) RDA-A1-02D 
Al 元 数据 标识 符 可 关联 至 元 数据 记录 RDA-A1-03M 
Al 数据 标识 符 可 关联 至 数字 对 象 RDA-A1-03D 
Al 元 数据 可 通过 标准 化 协议 检索 RDA-A1-04M 
TT Al 数据 可 通过 标准 化 协议 检索 RDA-A1-04D 
2 Al 数据 可 自动 化 检索 (如 通过 计算 机 程序 ) RDA-A1-05D 
at Al.1 元 数据 可 通过 免费 协议 获取 RDA-A1.1-01M 
LO ^: 数据 可 通过 免费 协议 获取 RDA-A1.1-01D 
© a. 数据 获取 需 通过 身份 验证 和 授权 RDA-AL.2-02D 
e A2 即使 数据 不 再 可 用 ,也 可 以 访问 其 元 数据 RDA-A2-01M 
T ı 元 数据 使 用 标准 化 格式 的 知识 语言 来 表示 RDA-I1-01M 
e H 数据 使 用 标准 化 格式 的 知识 语言 来 表示 RDA-I1-01D 
E H 元 数据 使 用 机 器 可 理解 的 知识 语言 来 表示 RDA-II-02M 
OI 数据 使 用 机 器 可 理解 的 知识 语言 来 表示 RDA-I1-02D 
Ne 元 数据 使 用 遵循 FAIR 原则 的 词汇 表 RDA-D2-01M 
> 7 数据 使 用 遵循 FAIR 原则 的 词汇 表 RDA-I2-01D 
S< B 元 数据 包含 对 其 他 元 数据 的 引 RDA-D-01M 
B 数据 包含 对 其 他 数据 的 引用 RDA-I3-01D 
CB 元 数据 包含 对 其 他 数据 的 引用 RDA-I3-02M 
c B 数据 包含 对 其 他 数据 的 合格 引用 RDA-I3-02D 
《9 3 元 数据 包含 对 其 他 元 数据 的 合格 引用 RDA-I3-03M 
B 元 数据 包含 对 其 他 数据 的 合格 引用 RDA-I3-04M 
RI 多 维 准确 且 相 关 的 属性 进行 充分 描述 以 提高 数据 的 重用 RDA-R1-01M 
RI1.1 元 数据 包含 数据 可 重用 的 许可 协议 信息 RDA-RI. 1-01M 
RI.I ZO 8] — A EE TER E FEE RDA-RI. 1-02M 
RI.1 元 数据 指向 一 个 机 器 可 理解 的 重用 许可 RDA-R1.1-03M 
R1.2 元 数据 包含 符合 特定 领域 标准 的 来 源 信息 RDA-R1.2-01M 
RI.2 元 数据 包含 符合 跨 领 域 标准 的 来 源 信息 RDA-R1.2-02M 
R1.3 元 数据 符合 领域 标准 RDA-R1.3-01M @@@ 非 常 重要 
R1.3 数据 符合 领域 标准 RDA-R1.3-01D @@@ 非 常 重要 
R1.3 元 数据 以 符合 机 器 可 理解 的 领域 标准 来 表示 RDA-R1.3-02M @@@ 非 常 重要 
R1.3 数据 以 符合 机 器 可 理解 的 领域 标准 来 表示 RDA-R1.3-02D ee 重要 


注 :M 代表 元 数据 ;D 代表 数据 
FAIR 数据 成 熟 度 模型 制定 的 ,于 2020 年 10 月 发 布 度 模 型 的 所 有 “非常 重要 ”指标 ,反而 还 采用 了 一 些 在 
v0.4 版 本 ,该 版 本 共 包 括 17 个 指标 ( 见 表 3), 用 于 评 FAIR 数据 成 熟 度 模型 中 被 认为 “重要 ”的 指标 ,如 “ 互 
估 研 究 数 据 对 象 的 FAIR 3$f8HE7 。FAIRsFAIR 数据 | 操作 ”维度 的 3 个 指标 ,其 在 FAIR 数据 成 熟 度 模型 中 
对 象 评估 指标 并 没有 全 部 采纳 RDA 的 FAIR 数据 成 熟 都 不 是 “非常 重要 ”的 指标 。 
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表 3 FAIRsFAIR 数据 对 象 评估 指标 


对 应 的 FAIR 原则 指标 名 称 指标 标识 


指标 含义 


可 发 现 标识 符 的 唯一 性 FsF-F1-01D 
标识 符 的 永久 性 FsF-F1-02D 
描述 性 核心 元 数据 FsF-F2-01M 
元 数据 中 的 资源 标识 符 FsF-F3-01M 
可 检索 的 元 数据 FsF-F4-01M 

可 访问 数据 检索 信息 FsF-A1-01M 
元 数据 的 标准 化 通讯 协议 FsF-A1-02M 
数据 的 标准 化 通讯 协议 FsF-A1-03D 
元 数据 的 保存 FsF-A2-01M 

可 互 操作 元 数据 的 标准 表示 FsF-I1-01M 
具有 语义 资源 的 元 数据 FsF-I1-02M 
与 实体 相关 的 链接 FsF-I3-01M 

可 重用 数据 内 容 的 元 数据 FsF-RI-01M 
Co 数据 使 用 许可 FsF-R1. 1-01M 
村 数据 溯源 FsF-R1.2-01M 
LO 领域 元 数据 的 标准 化 FsF-R1.3-01M 

- 数据 文件 格式 FsF-R1.3-02D 


"UM 代表 元 数据 ;D 代表 数据 

BU HM 
ium 数据 成 熟 度 模型 ,从 中 挑选 了 26 个 指标 形成 
D B FAIR 评估 指标 ,应 用 于 欧洲 开放 科学 云 的 数 
MERO MUCH t FAIR 遵循 度 评估 5 。 该 模型 
USD Sut 5 个 ,包括 RDA-FI-01D /E,RDA-FI- 
oF, RDA-F2-01M /E, RDA-F3-01M /E, RDA-F4- 
oer, 可 访问 指标 8 个 : RDA-A1-01M ZI RDA-AI- 
02WZI RDA-A1-02D/E RDA-A1-03D/E , RDA-A1-04M 
/R,RDA-AI -04D/E , RDA-AI-05D/I, RDA-A2-01M /E; 
可 互 操 作 指 标 5 个 : RDA-I1-01M /I, RDA-II-01D/I, 
RDA-I1 -02M/I , RDA-I1-02D/I, RDA-I2-01 M/T; 可 重用 
指标 8 ^: RDA-RI-01 M/E , RDA-RI. 1-01 M/E , RDA- 
RI. 1-02M/I, RDA-RI. 1-03M/I, RDA-RI. 2-01 W/I, 
RDA-RI. 3-01 M/E ,RDA-RI. 3-01 D/E,RDA-RI. 3-02M/ 
E (各 指标 标识 为 RDA 的 FAIR 数据 成 熟 度 模型 指标 
标识 及 重要 性 , 见 表 2)。 

在 评估 方法 方面 ，FAIRsFAIR 数据 对 象 评估 指 
标 、EOSC 的 FAIR. 评估 指标 未 提出 明确 的 评估 方法 ， 
而 RDA 的 FAIR 数据 成 熟 度 模 型 提供 了 两 种 评估 方 
法 。 一 种 是 评估 FAIR 进展 程度 , 即 评估 每 一 个 指标 的 
成 熟 度 级 别 以 评估 某 一 数字 资源 在 该 指标 下 遵循 
FAIR 原则 的 程度 。 成 熟 度 级 别 主要 包括 5 个 级 别 ,如 
表 4 Wn: 


数据 被 分 配 了 全 球 唯一 标识 符 

数据 被 分 配 了 永久 性 标识 符 

元 数据 包含 描述 性 的 核心 元 素 ( 如 创建 者 题名、 数据 标识 符 、 发 布 
者 .发布 日 期 .摘要 ,关键 词 等 ) 以 支持 数据 发 现 
元 数据 包含 所 描述 数据 的 标识 符 

元 数据 可 通过 机 器 检索 

元 数据 包含 数据 检索 的 条 件 及 环境 

元 数据 可 通过 标准 化 通讯 协议 检索 
数据 可 通过 标准 化 通讯 协议 检索 

即使 数据 不 再 可 用 时 ,元 数据 仍 能 获取 

元 数据 使 用 标准 化 格式 的 知识 语言 来 表示 
元 数据 使 用 语义 资源 

元 数据 包含 数据 与 其 相关 实体 的 链接 

元 数据 能 准确 反映 数据 的 内 容 

元 数据 包含 数据 重用 的 许可 信息 

元 数据 包含 数据 创建 或 产生 的 来 源 信息 

元 数据 符合 领域 所 推荐 的 标准 

数据 符合 领域 所 推荐 的 文件 格式 


表 4 FAIR 数据 成 熟 度 模型 的 成 熟 度 级 别 
每 个 指标 (或 每 个 FAIR 方面 的 成 熟 度 级 别 ) 0 一 一 不 适 
2 一 一 正在 考虑 /计划 阶段 

3 一 一 正在 实施 

完全 实施 


pns 


图 1 是 利用 上 述评 估 方 法 得 到 的 评估 结果 的 可 视 
化 图 。 图 1 清晰 展示 了 被 评估 的 数字 资源 在 “可 发 现 ” 
方面 做 得 很 好 ,而 在 “可 访问 “可 互 操 作 ”“ 可 重用 ” 方 
面 还 有 小 部 分 指标 有 待 提 高 。 该 评估 方法 特别 适合 想 
要 做 自我 评估 的 数据 创建 者 或 出 版 者 以 发 现 其 数字 资 
源 FAIR 化 有 待 提高 的 方面 。 

第 二 种 评估 方法 是 评估 “符合 或 不 符合 ”性 , 即 针 
对 每 一 指标 ,只 需要 回答 “符合 ”还 是 “不 符合 ”, 以 评 
估 某 一 数字 资源 是 否 符合 该 指标 。 如 评估 “RDA-F4- 
01M" (元 数据 在 搜索 应 用 服务 中 注册 或 索引 ) 指 标 ,如 
果 某 数字 资源 在 该 指标 下 不 能 实现 元 数据 在 搜索 应 用 
服务 中 注册 或 索引 , 则 评估 结果 为 “不 符合 ” ,如 果 在 
该 指标 下 实现 了 元 数据 在 搜索 应 用 服务 中 注册 或 索 
引 , 则 评估 结果 为 “符合 ” 。 这 种 方法 比 前 一 种 方法 更 
严格 ,因为 每 个 指标 只 有 两 个 评估 结果 , 即 “ 符 合 ” 怠 
“不 符合 ” ,实际 上 相当 于 只 统计 了 前 一 种 方法 中 达到 
第 4 级 别 的 指标 , 即 前 一 种 方法 中 某 指标 达到 第 4 级 
在 第 二 种 评估 方法 中 才 算 “符合 ”。 
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FINDABLE ACCESSIBLE 
RDA-F1-01M 


R —A1-02. 
RDA-F4-01M. RDA-FI-01D DA-A1-02M 


RDA-A1-02D 
RDA-A1.1-01D RDA-A1-03M 
RDA-F3-01M RDA-F1-02M 


RDA-AI.1-01 RDA-AI-03D 


RDA-A1-05 RDA-AI1-04M 
RDA-FI-02M RDA-A1-04D 


RDA-F2-01 


INTEROPERABLE 
REUSABLE 
RDA-II-01M ADA mii 
RDA-I3-04M 4 RDA-I1-01D TA 
RDA-R1.3-02D BDASIEISOIM 
RDA-I3-03M, RDA-II-02M 
RDA-RI.3-02M, RDA-RI.1-02M 
RDA-I3-02D RDA-II-02D 
— i RDA-RI.3-01D RDA-RI.1-03M 
RDA-I3-01D RDA-2-01D tiani RDA-R1.2-01M 
RDA-I3-0IM RDA-R1.2-02M 


图 1 FAIR 数据 成 熟 度 模型 评估 结果 的 可 视 化 (方法 一 ) 


.00513V1 


除了 评估 每 个 指标 的 “符合 或 不 符合 "性 ,该 方法 | 结合 指标 的 重要 性 程度 ,最 后 计算 每 个 FAIR 维度 的 遵 
总 指 标的 重要 性 程度 以 评估 某 数 字 资 源 的 FAIR 循 度 级 别 。 遵 循 度 级 别 计算 方法 如 表 5 所 示 ， 
i-i 通过 评估 每 个 指标 的 “符合 或 不 符合 "性 ， 
R5 FAIR 数据 成 熟 度 模型 基于 指标 重要 性 程度 的 评估 方法 


uj 级 别 含义 “非常 重要 "指标 ” “重要 "指标 “有 用 "指标 
*Eevel 0 未 实现 FAIR 化 [9] 
X 1 仅 “ 非 常 重要 ”指标 达到 要 求 e 
fa 2 “非常 重要 ”指标 +50% 的 “重要 ”指标 达到 要 求 @ € 
RE 3 “非常 重要 "指标 + 全 部 “重要 ”指标 达到 要 求 e e € 
feel 4 “非常 重要 "指标 + 全 部 “重要 "指标 +50% 的 “有 用 ”指标 达到 要 求 e e 
TE “非常 重要 "指标 + 全 部 “重要 "指标 + 全 部 的 “有 用 "指标 达到 要 求 e e e 
注 :空心 贺 代 表 没有 一 个 指标 达到 要 求 ; 半 实 心 半空 心 贺 代 表 有 一 半 指标 达到 要 求 ;实心 贺 代表 全 部 指标 都 达到 要 求 


图 2 是 利用 第 二 种 评估 方法 得 到 的 评估 结果。 从 | 指标 达到 了 要 求 ,而 “可 访问 ”和 “可 重用 ”方面 还 未 达 
图 2 可 看 出 ,被 评估 的 资源 在 “可 发 现 "方面 达到 了 | 到 最 低 要求 Level 1。 第 二 种 评估 方法 适合 第 三 方 机 构 
Level 5 ,在 “可 互 操作 ”方面 达到 了 Level 3 , 即 “ 可 互 操 | 〈 如 基金 资助 机 构 ) 去 评 佑 其 所 资助 的 项 目 资源 的 


作 ” 方 面 大 部 分 “重要 "指标 达到 要 求 , 少 部 分 “有 用 ” | FAIR 化 程度 。 

mLevel 5 

m Level 4 

m Level 3 
"Level 2 
Level 1 
Level 0 

O Value 

=FAIRness 

[ ] [ | 


FINDABLE ACCESSIBLE INTEROPERABLE REUSABLE 


图 2 FAIR 数据 成 熟 度 模型 评估 结果 的 可 视 化 图 表 ( 方法 二 ) 
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3 评估 模型 /工具 对 比分 析 


3.1 评估 方法 类 型 

从 评估 方法 类 型 上 看 ,可 以 划分 为 两 种 类 型 
FAIR 遵循 度 评估 指标 .FAIRdat FAIR 数据 评估 工具 5 
星 数据 评估 工具 这 4 个 属于 相同 类 型 ,都 是 以 网 络 清 
单 /表单 /列表 或 问卷 形式 的 自 评估 工具 。 每 个 指标 都 
设置 了 若干 个 问题 ,并 设置 了 各 个 问题 的 结果 选项 , 通 
过 回答 问题 产生 评估 结果 。 评 估 结 果 或 者 是 一 个 总 结 
果 ( 如 FAIR 数据 评估 工具 ) .或 者 是 FAIR4 个 维度 的 
星 级 结果 (如 FAIRdat 5 星 数据 评估 工具 ) 。 

FAIR 数据 成 熟 度 模型 FAIRSFAIR 数据 对 象 评估 
指标 、EOSC 的 FAIR 评 佑 指标 这 3 个 属于 同一 类 型 。 
尽管 FAIRsFAIR 数据 对 和 象 评估 指标 .EOSC 的 FAIR 评 
估 扩 标示 提出 明确 的 评估 方法 ,但 其 指标 都 来 源 于 
FAIR 数据 成 熟 度 模型 ,未 来 可 能 会 考虑 成 熟 度 评估 方 
VACOFAIR 数据 成 熟 度 模型 是 基于 成 熟 度 模型 理论 与 
TE, PRAGER HY FAIR 化 水 平 及 发 现 有 待 提 高 的 方 
面 s 养 不 像 以 网 络 清单 /表单 /列表 或 问卷 形式 的 评估 
,只 关注 最 终结 果 ,而 是 提供 了 每 个 指标 的 成 熟 度 
DI Gl 38 5 级 ) ,评估 结果 不 仅 给 出 一 个 最 终 的 成 
就 避 评 估 , 还 能 了 解 到 与 最 高 成 熟 度 级 别 的 差距 ,评估 
内 要 按照 成 熟 度 级 别 一 级 级 往 上 提高 ,最 终 将 实现 
最 优 级 别 的 FAIR 化 水 平 。 
32€ 评估 方法 的 自动 化 程度 

它 从 评估 方法 的 自动 化 程度 来 看 ,大 部 分 评估 模型 / 

工 符 都 是 以 人 工 评 价 为 主 ,通常 采用 自 评估 工具 方式 
由 县 据 集 拥有 者 自己 去 评估 。 目 前 FAIR 指标 小 组 和 
FAIRSFAIR 正在 探索 自动 化 评估 ,但 仍 在 研究 中 。 虽 
然 人 工 参 与 评价 无 可 厚 非 , 尤 其 是 FAIR 原则 中 有 一 些 
主观 性 的 原则 ,如 数据 描述 的 丰富 性 原则 ,这 些 主观 性 
的 原则 更 多 需要 人 工 鉴别 。 但 是 ,针对 大 规模 数字 对 
象 的 评估 ,仅仅 依赖 人 工 评价 是 不 现实 的 ,需要 探索 更 
加 自动 化 的 评价 模式 ,通过 机 器 或 自动 化 程序 去 判断 
数字 资源 对 FAIR 遵循 程度 的 评估 。 目 前 由 于 不 同学 
科 领 域 具有 不 同 的 标准 与 需求 ,以 及 机 器 可 读 资源 的 
缺乏 .元 数据 丰富 性 缺乏 等 问题 ,自动 化 评价 模式 的 实 
现 仍 具有 挑战 性 ,目前 还 未 有 完全 自动 化 的 评估 工具 。 
3.3 ”评估 方法 的 可 操作 性 

从 评估 方法 的 可 操作 性 来 看 ,FAIR 数据 成 熟 度 模 
型 是 最 全 面 的 ,其 给 出 了 两 种 评估 方法 ,具有 较 强 的 可 
操作 性 。FAIR 数据 评估 工具 .FAIRdat 5 星 数据 评估 
工具 主要 采取 网 络 清单 /表单 /列表 或 问卷 形式 的 评 


— 


十 ,操作 流程 较为 简便 。FAIRsFAIR 数据 对 象 评估 指 
标 、EOSC 的 FAIR. 评估 指标 还 未 给 出 具体 的 评估 方 
3.4 指标 数量 与 分 布 
从 指标 数量 与 分 布 来 看 ,除了 5 星 数据 评估 工具 
外 ,其 余 6 个 都 基于 FAIR 原则 制定 其 指标 。 指 标 最 多 
的 是 FAIR 数据 成 熟 度 模型 , 共 41 个 。 指 标 最 少 的 是 
FAIRdat, 只 有 10 个 。 各 评估 工具 在 FAIR4 个 维度 的 
指标 分 配 数量 也 不 尽 相 同 。FAIR 遵循 度 评估 指标 、 
FAIRdat , FAIR 数据 评估 工具 指标 设置 更 多 倾向 于 “可 
发 现 ”“ 可 获取 ”方面 ,在 “可 互 操 作 ”“ 可 重用 ”方面 的 
间 标 设置 较 少 ,而 5 星 数 据 评估 工具 、FAIR 数据 成 熟 
度 模 型 的 指标 设置 更 多 倾向 于 "可 互 操作 ”可 重用 ” 
方面 ,EOSC 的 FAIR 评估 指标 设置 更 多 倾向 于 “可 发 
现 ”“ 可 重用 ”方面 ,FAIRsFAIR 数据 对 象 评估 指标 设 
置 在 FAIR4 个 方面 分 配 较 为 平均 。 如 表 6 所 示 : 
表 6 7 个 评估 模型 /工具 在 FA、I.、R 维度 的 指标 分 布 


评估 框架 /工具 F A I R ”合计 
FAIR 遵循 度 评估 指标 5 3 3 3 14 
FAIRdat 3 2 5 0 10 
FAIR 数据 评估 工具 4 3 3 1 11 
5 星 数据 评估 工具 3 2 4 5 14 
FAIR 数据 成 熟 度 模型 7 12 12 10 41 
FAIRsFAIR 数据 对 象 评估 指标 5 3 5 17 
EOSC 的 FAIR 评估 指标 5 8 5 8 26 


3.5 元 数据 方面 指标 的 设置 

大 量 的 机 器 可 操作 的 元 数据 对 于 数据 和 服务 的 可 
发 现 不 可 或 缺 , 因 此 元 数据 在 FAIR 原则 中 处 于 非常 重 
要 的 地 位 。FAIR 遵循 度 评估 指标 、FAIRdat、FAIR 数 
据 评估 工具 .5 星 数据 评估 工具 没有 明确 区 分 数据 及 
元 数据 层面 的 指标 ,FAIR 数据 成 熟 度 模型 FAIRsFAIR 
数据 对 象 评估 指标 EOSC 的 FAIR. 评估 指标 这 几 个 明 
确 区 分 了 数据 及 元 数据 的 模型 则 对 元 数据 方面 的 指标 
给 予 了 倾斜 ,如 FAIR 数据 成 熟 度 模型 的 41 个 指标 中 
有 23 个 是 关于 元 数据 方面 的 指标 ,而 FAIRsFAIR 数据 
对 象 评估 指标 的 17 个 指标 中 有 13 个 是 关于 元 数据 的 
指标 ,欧洲 开放 科学 云 FAIR 评估 指标 的 26 个 指标 中 
有 16 个 是 关于 元 数据 的 指标 。 
3.6 ”指标 的 清晰 度 

7 个 评估 模型 /工具 在 “可 发 现 “ 可 检索 “可 互 
操作 ”方面 的 指标 整体 比较 明确 ,易于 理解 与 区 分 ,而 
在 “可 重用 ”方面 ,指标 设置 要 么 较 少 ,如 FAIR 数据 评 
佑 工具 在 “可 重用 "方面 具有 1 个 指标 ,要 么 设置 过 多 ， 
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如 FAIR 数据 成 熟 度 模型 关于 “元 数据 的 许可 协议 ”就 有 
“元 数据 包含 数据 可 重用 的 许可 协议 信息 “元 数据 指向 
一 个 标准 化 的 重用 许可 ”元 数据 指向 一 个 机 器 可 理解 
的 重用 许可 ”3 个 指标 。 在 “可 重用 ”方面 ,还 存在 相关 

间 标 之 间 较 为 模糊 ,区 分 度 不 够 明显 的 问题 。 如 FAIRs- 
FAIR 数据 对 象 评估 的 “可 重用 ”方面 指标 中 ,数据 内 容 
的 元 数据 ”领域 元 数据 的 标准 化 “数据 文件 格式 ”区 
分 度 不 够 明显 ,不 易于 理解 。EOSC 的 FAR 评估 指标 中 
“可 重用 ”方面 的 “元 数据 符合 领域 标准 ”"“ 元 数据 以 符 
合 机 器 可 理解 的 领域 标准 来 表示 ”区 分 度 也 不 够 明显 。 


因此 ,“ 可 重用 ”方面 的 指标 清晰 度 还 有 待 提高 。 
4 FAIR 数据 评估 模型 与 工具 总 体 评 价 


7 个 评估 模型 /工具 主要 对 数据 集 进行 评价 ,对 于 
非 数 据 型 的 数字 对 象 ,如 软件 .语义 等 尚未 开展 评价 ， 
这 主要 是 因为 FAIR 原则 主要 是 针对 数据 层面 的 准则 ， 
AE T FAIR 原则 制定 的 评估 模型 /工具 自然 以 数据 集 为 
主要 评估 对 象 。 各 评估 模型 /工具 也 基本 未 限定 使 用 
领域 ,不 同人 员 ( 数 据 创 建 者 .数据 发 布 者 .科研 资助 机 
构 等 ) 都 可 使 用 这 些 评估 模型 /工具 如 表 7 所 示 : 


表 7 7 个 评估 模型 /工具 主要 情况 比较 


评估 工具 创建 者 评估 对 象 受众 工具 类 型 优势 /特色 不 足 
FAIR 遵循 度 评估 指 ”FAIR 指标 小 组 ”数字 资源 (Digital ”未 限定 自我 评估 问卷 间 标 严格 遵循 FAIR ”未 说 明 评 分 结果 的 
标 resources )、 数 据 集 原则 计算 方法 ,评估 过 程 
( Datasets) 较为 主观 
dat DANS 数据 集 ( Datasets) 未 限定 网 络 清 单 (Online- ”指标 简明 未 设置 “可 重用 " 方 
checklist) 面 的 评估 指标 
数据 评估 工具 ARDC 数据 集 (Datasets ) 数据 馆 员 及 IT 人 网 络 清单 td f Bj 未 说 明 评分 结果 的 
员 , 也 适用 于 软件 工 计算 方法 ,评估 过 程 
程 师 及 研究 人 员 较为 主观 
数据 评估 工具 CSIRO 数据 集 (Datasets ) 未 限定 网 络 清单 包含 部 分 FAIR Ji ”未 说 明 评 分 结果 的 
则 未 涉及 的 指标 计算 方法 ,评估 过 程 
à 较为 主观 
\ ER 数据 成 熟 度 模 RDA 数据 资源 及 其 元 数 ”未 限定 成 熟 度 评估 全 指标 全 面 ;:@ 对 指 ”指标 较 多 ,评估 较为 
4 Un 标的 重要 程度 进行 “繁琐 
划分 ;@@ 评 估 方 法 独 


和 KeAm 数据 对 FAIRsFAIR 研究 数据 对 象 , 包 


括 ”未 限定 
ZG hats 数据 ` 元 数据 及 其 文 
档 ( 如 政策 及 流程 
n= 等 ) 
e Hj FAIR 评估 EOSC 数据 集 (Datasets ) 未 限定 
HAV 


此 外 ,各 评估 模型 /工具 有 其 优势 与 不 足 。FAIR 
遵循 度 评 佑 指标 .FAIRdat FAIR 数据 评估 工具 、5 EUR 
据 评 佑 工具 这 类 以 网 络 清单 /表单 /列表 或 问卷 形式 的 
自 评 佑 工具 的 优势 是 评估 流程 简单 ,只 需 按照 所 列 问 
题 回 答 即 可 ,缺点 是 评估 费力 费时 ,需要 特别 熟悉 数据 
集 才 能 比较 快速 地 给 出 答案 ,此 外 评 佑 结果 计算 主观 
性 较 强 ,目前 的 几 个 工具 都 未 提 及 评估 结果 的 详细 计 
算 方 法 。 

对 指标 的 重要 程度 进行 划分 是 FAIR 数据 成 熟 度 
模型 的 重要 特色 。 数 据 创 建 者 或 出 版 者 可 重点 对 “ 非 
常 重要 "的 20 个 指标 评估 改进 与 提高 。 同 时 该 模型 
给 出 了 两 种 评 佑 方法 评估 某 一 指标 (如 评 佑 方法 一 ) 
或 FAIR 各 维度 (如 评 佑 方法 二 ) 的 成 熟 度 级 别 , 为 
FAIR 数据 评估 提供 了 一 种 不 同 的 视角 。 


特 且 全 面 :评估 成 熟 


度 级 别 
未 提供 具体 评估 方 ” 继 承 了 FAIR 数据 仅仅 提供 了 一 个 指 
法 成 熟 度 模型 的 指标 ， 标 框 架 , 没 有 提供 具 


且 指 标 更 加 简明 体 评价 方法 


未 提供 具体 评估 方 ”继承 了 FAIR 数据 “未 提供 具体 评价 广 

法 成 熟 度 模 型 的 指标 法 

FAIRsFAIR 数据 对 象 评估 指标 整合 了 FAIR 数据 
成 熟 度 模型 的 部 分 指标 ,更 加 简明 ,如 “ 互 操作 ”维度 
只 选择 了 3 个 指标 。 此 外 ,有 的 地 方 还 使 用 了 不 同 的 
表达 方式 ,如 “描述 性 核心 元 数据 ”指标 ,在 FAIR 数据 
成 熟 度 模型 中 是 用 “元 数据 的 丰富 性 ”表示 。 但 其 唯 
一 不 足 的 是 仅仅 提供 了 一 个 指标 框架 ,没有 提供 具体 
评价 方法 。 

EOSC 的 FAIR 评估 指标 选择 了 FAIR 数据 成 熟 度 
模型 的 部 分 指标 ,但 遗憾 的 是 该 指标 体系 同样 未 提供 
具体 评价 方法 。 


5 ”对 选择 与 应 用 FAIR 数据 评估 模型 与 
工具 的 建议 


7 个 评估 模型 /工具 各 有 其 功能 特点 ,各 具有 不 同 
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的 指标 及 评 佑 方法 ,具有 互补 性 。 因 此 ,国内 相关 组 织 
在 选择 与 应 用 FAIR 数据 遵循 度 评估 模型 /工具 时 ,应 
该 汲取 各 评估 模型 /工具 的 优势 与 特色 ,而 不 是 非 此 即 
彼 的 选择 方案 。 基 于 评 佑 方法 类 型 . 评 佑 方法 的 可 操 
作 性 .指标 数量 与 分 布 等 因素 综合 考虑 ,在 此 提出 一 种 
方案 仅 供 参考 :FAIRsFAIR 数据 对 象 评估 + RDA 的 
FAIR 数据 成 熟 度 模型 , 即 采用 FAIRsFAIR 数据 对 象 评 
估 的 17 个 指标 及 RDA 的 FAIR 数据 成 熟 度 模 型 的 评 
佑 方法 。 


心目 标 是 建设 机 器 可 充分 利用 的 数据 资源 。 当 数据 规 
模 化 上 且 是 机 器 可 理解 的 FAHR 数据 时 ,FAIR 数据 的 评 
估 随 之 也 需要 采取 自动 化 的 评估 方式 才能 跟 上 时 代 的 
步伐 。 正 因为 如 此 ,FAIRsFAIR 基于 FAIRsFAIR 数据 
对 象 评估 指标 的 17 Vue 16 个 ,开发 了 一 个 自 
动 化 评估 工具 FUJI” 。F-UJI 基于 数据 对 象 标识 符 
(如 PID 或 URL) 对 数据 资源 进行 评估 ,已 测试 5 个 
CoreTrustSeal 认证 数据 存储 库 的 数据 集 的 FAIR 遵循 
度 情 况 ,未 来 还 将 不 断 增 加 合作 测试 的 数据 存储 库 。 


评估 指标 与 评估 方法 是 选择 与 应 用 FAIR 遵循 度 
评估 模型 /工具 时 需要 重点 关注 的 两 个 方面 。FAIRs- 
FAIR 数据 对 象 评估 共有 17 个 指标 ,各 指标 在 FAIR4 
个 维度 上 分 配 较为 均匀 , 且 基 本 与 FAIR 原则 保持 一 
至 = 此 外 , 它 整合 了 FAIR 数据 成 熟 度 模型 的 部 分 指标 ， 
E JL IARE ,还 继承 了 FAIR 数据 成 熟 度 模型 对 指标 
的 重要 程度 进行 划分 的 特色 。 因 此 , 它 的 指标 不 失 为 
种 可 靠 选择 。 当 然 , FAIRsFAIR 数据 对 象 评估 的 指 
浏 非 完全 适用 于 任何 组 织 。 国 内 相关 组 织 可 在 此 基 
磺 韭 考虑 指标 的 包容 性 ,如 是 否 符合 多 种 利益 相关 者 
的 圳 求 ?是 否 适 合 不 同学 科 领 域 的 需求 ? 根据 自身 的 
讳 估 目 的 与 需求 对 指标 进行 修改 与 微调 ,建立 更 加 科 
Xu 的 评估 指标 。 

六 关于 评估 方法 的 选择 ,鉴于 "FAIRsFAIR 数据 对 象 
LU ZTTPET 出 明确 的 评估 方法 ,可 选择 
FÈR 数据 成 熟 度 模型 的 评估 方法 。 与 以 网 络 清单 / 表 
单 ? 六 | 表 或 问卷 形式 的 自 评估 工具 只 关注 一 个 最 终 评 
估 结 果 相 比 ,以 FAIR 数据 成 熟 度 模型 为 代表 的 模型 
基 国 成 熟 度 模型 理论 与 方法 ,提供 每 个 指标 的 成 熟 度 
级 别 以 评估 数据 集 的 FAIR 化 水 平 及 发 现 有 待 提高 的 
方面 。FAIR 数据 成 熟 度 模型 的 成 熟 度 评 估 方 法 可 以 
了 解 某 数据 资源 的 FAIR 化 水 平 处 于 哪 一 个 层次 .存在 
什么 问题 ,进而 确定 改进 策略 与 计划 ,其 定义 的 5 个 发 
展 层级 实际 上 是 一 个 标准 的 数据 FAIR 化 所 必须 经 历 
的 流程 , 当 所 有 数据 存储 库 都 按照 这 5 个 发 展 层级 推 
进 其 数据 FAIR 化 ,数据 FAIR 实施 的 标准 化 将 指 日 可 
待 。 此 外 , 当 所 有 数据 资源 都 采用 此 评估 方法 ,该 评估 
方法 成 为 衡量 的 基准 ,有 利于 不 同 数据 存储 库 的 数据 
FAIR 化 水 平 的 比较 。 

需要 说 明 的 是 ,该 方案 中 的 基于 成 熟 度 模型 的 评 
佑 方法 本 质 上 仍 是 人 工 评估 ,未 来 需要 随 着 需求 及 技 
术 的 变化 适时 向 自动 化 评估 方向 发 展 。 数 据 规模 化 产 
出 是 数据 密集 型 科研 方式 的 主要 特点 ,规模 化 数据 的 
FAIR 化 评估 需要 自动 化 评估 方法 与 工具 。FAIR 的 核 


E 


因此 ,评估 指标 和 评估 方法 的 选择 都 不 是 一 成 不 变 的 ， 
随 着 需求 及 技术 的 变化 ,可 选择 的 模型 也 更 加 多 样 智 
能 化 。 


6 结语 


本 文 对 7 个 评 佑 FAIR 遵循 度 的 指标 模型 与 工具 
进行 了 分 析 , 也 体现 出 了 国际 上 主要 组 织 对 建立 明确 
的 \ 有 识别 力 的 .可 测量 的 并 且 通 用 性 强 的 FAIR 遵循 
度 评估 指标 所 做 的 努力 。 需 要 说 明 的 是 ,评估 不 是 目 
的 ,更 重要 的 是 基于 评估 的 结果 采取 切实 有 效 的 措施 


与 行动 去 改善 评估 发 现 的 问题 ,最 终 提高 数据 的 FAIR 
化 水 平 。 
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Abstract: | Purpose/significance | This paper compares the main FAIR assessment models and tools in order to 


aXiv 


provide references for stakeholders in data management to assess data FAIRness. | Method/process | The metrics 


E the evaluation methods of each model or tool were introduced through a literature review and content analysis. 
fiie comparative analysis method was also used to evaluate FAIR assessment models and tools from 6 aspects, inclu- 
ding types, automation , operability of FAIRness evaluation method, number and distribution of indicators, metadata 

indicator settings, and indicator clarity. | Result/conclusion | Based on the comparison of each model or tool, a solu- 

tion of "FAIRsFAIR Data Object Assessment Metrics + RDA FAIR Data Maturity Model" is proposed for stakehold- 
ersin data management in selecting and application of FAIR assessment models. 
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